مقایسه الگوریتم های متفاوت تخمین داده های گمشده در مجموعه داده های آزمایش های ریزآرایهcdna با شرایط گوناگون

thesis
abstract

تکنیک ریزآرایه dna، تکنولوژی معمول با عملکرد بالا برای نشان دادن سطوح بیان هزاران ژن بطور همزمان در شرایط مختلف است. این تکنیک، بیولوژی ملکولی را متحول ساخت. برخلاف بیولوژی ملکولی قدیمی، استفاده مفید ریزآرایه dna، نیازمند استفاده توام آمار و محاسبات جهت طراحی آرایه ها، طراحی آزمایشات و تجزیه تحلیل و مدیریت داده ها است. مهمترین کاربرد آن تعیین شباهت ژن های بیان شده در شرایط مختلف سلولی و مرتبط ساختن ژن های دارای عملکردهای سلولی مشابه است. اطلاعات آزمایشات ریزآرایه ها معمولا در قالب ماتریس های بزرگ بیان ژن و شرایط مختلف آزمایشی و تعدادی داده گمشده هستند. متاسفانه حتی با رشد تکنولوژی، در تکنولوژی های توان بالا تولید داده نیز با داده های گمشده مواجه هستیم. بنا بر دلایل آزمایشگاهی و اقتصادی امکان انجام دوباره آزمایشات ممکن نیست، از این رو حذف داده ها و یا جایگزین کردن با اعداد ثابت به جای داده-های گمشده از نظر بسیاری از محققان مورد قبول است. از آنجا که بسیاری از الگوریتم های خوشه-بندی و تعدادی از روش های تجزیه تحلیل آماری به دسته داده های کامل نیازمندند، محاسبه داده های گمشده برای کاربرد موثر اطلاعات ریزآرایهdna امری ضروری است. عدم توجه به داده های گمشده و روش مناسب جهت تخمین آن ها سبب کاهش دقت، ایجاد اشکالاتی در نتیجه گیری، عدم کاربردی بودن داده های حاصل از آزمایشات و عدم توانایی در تعمیم آن ها به جامعه واقعی خواهد شد. بنابراین برای حداقل کردن اثر دسته داده های ناقص در تجزیه تحلیل ها و افزایش دامنه قابل اطمینان داده ها، باید از الگوریتم های تخمین داده های گمشده استفاده کرد. در این مطالعه یازده الگوریتم تخمین داده-های گمشده برای مقایسه کارایی آن ها در شرایط مختلف با استفاده از دسته داده های برگرفته از پایگاه های معتبر داده، الگوریتم های مخصوص تخمین داده های گمشده، نرم افزارها و دستوراتی برای انجام مراحل مختلف تخمین بکار گرفته شد. نتیجه می گیریم با افزایش درصد داده های گمشده، دقت این الگوریتم ها کاهش می یابد. همچنین عواملی نظیر ذات خطی و غیرخطی داده، توزیع گمشدگی داده ها، نوع داده ها، درصد گمشدگی داده ها، کمیت پارامترهای موثر در الگوریتم های تخمین داده های گمشده، سایز داده و وجود نویز نیز بر دقت و کارایی این روش ها موثرند.

similar resources

تاثیر داده های گمشده در نمودارهای رشد

سابقه و هدف: استفاده از منحنی رشد قدرتمندترین وسیله پایش رشد کودکان می باشد و از این طریق می توان انحرافات از الگوی رشد طبیعی را بموقع تشخیص داد. ریزش داده ها و مقادیر گمشده از مشکلات معمولی در تجزیه و تحلیل داده های طولی رشد محسوب می شود. لذا اهمیت دارد که با برآورد نمودن مقادیر گمشده، داده ها کامل شده و در مسیری مناسب و صحیح جهت تحلیل قرار داده شوند. مواد و روش ها: این مطالعه طولی طی دو سال ب...

full text

مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه

وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت...

full text

کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره

تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی دا...

full text

تحلیل استوار داده های فضایی در حضور داده های دورافتاده

معمولاً تابع تغییرنگار که ساختار همبستگی داده­های فضایی را تعیین می­کند و نقش پایه­ ای در تحلیل آن­ها دارد، نامعلوم است و لازم است براساس مشاهدات برآورد شود. وجود داده­ های دورافتاده در مشاهدات تاثیر نامناسبی در برآورد تغییرنگار و سایر بخش­های تحلیل داده­های فضایی همچون پیش­گویی فضایی و برآورد پارامترهای روند دارد. در این مقاله ابتدا با استفاده از برآوردگرهای مقیاس، چند برآوردگر استوار جدید با ن...

full text

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری  شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

full text

مقایسه عناصر داده ای مجموعۀ حداقل داده های پرستاری

چکیده مقدمه: داده‌پردازی استاندارد نقش مهمی در مراقبت از بیمار ایفا می‌کند. داده‌های پرستاری، سطح اولیه انفورماتیک پرستاری را تشکیل می‌دهند. این داده‌ها، ابزار اصلی مورد استفاده برای ثبت شرح دقیق فرایند پرستاری از طریق روش‌شناسی ارزشیابی، تشخیص‌ها، مداخلات، پیامدها، مستندسازی و ارزیابی مراقبت بیمار هستند. همچنین نخستین اقدام برای استاندارد ‌کردن جمع‌آوری داده‌های یکسان و ضروری پرستاری برای ا...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده کشاورزی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023